[文献阅读] Bayesian Lasso regression

Posted by Leung ZhengHua on 2017-12-03

本文总点击量

摘要

当使用独立的双指数分布作为回归系数的先验分布时,lasso的估计系数对应后验分布众数。这篇文章介绍了贝叶斯方法在lasso里面的拓展,包括了计算和推断等问题。重点讨论了利用后验均值作为点估计。文章显示标准lasso的预测并不一定与贝叶斯lasso的预测一致,文章还介绍了一种新的Gibbs抽样方法。

引言

自从lasso被提出之后,作为对OLS的替代方案,广泛被应用在回归问题中。它的流行在于压缩某些系数至0,使得参数估计和变量选择可以同时进行。Lasso的参数求解可以用以下式子表示:

$\lambda \geq 0$ 控制了参数的压缩程度,当$\lambda=0$,(1)式就是OLS估计。当$\lambda$足够大的时候,所有系数都会被压缩至0.

Tibshirani (1996) 从贝叶斯角度解释了Lasso,表示lasso的估计可以看做$\beta$的后验众数,$\hat{\beta}_L=argmax_{\beta} \ p(\beta|y,\sigma^2,\tau)$,其中$p$个系数$\beta$的先验分布取独立的双指数分布

当固定$\sigma^2>0$和$\tau>0$时,$\beta$的后验估计等价于在标准lasso中取定惩罚系数$\lambda=2\tau\sigma^2$.

根据(Andrew & Mallows,1974; West,1987),Laplace(双指数)分布可以看做是a scale mixture of normal distributions.

lasso 后验分布

直接特征

贝叶斯lasso模型可以用以下式子表示:

$N(y|X\beta,\sigma^2 I_n)$表示$y$服从均值为$X\beta$,协方差阵为$\sigma^2 I_n$的多元正态分布。本文假定数据已经经过中心化处理,因此回归不考虑截距。